Planificación de movimiento con incertidumbre en tráfico mixto
UAMP integra incertidumbre en predicción de intenciones humanas para conducción autónoma más segura y cómoda en tráfico mixto.
UAMP integra incertidumbre en predicción de intenciones humanas para conducción autónoma más segura y cómoda en tráfico mixto.
Descubre 3SPO: nuevo algoritmo RL para agentes LLM supera GRPO con 2.4x más exploración y 1.8x más convergencia. Resultados en ALFWorld y WebShop.
Aprende cómo el deep RL crea políticas interpretables de control multi-parámetro para algoritmos evolutivos, con rendimiento excepcional.
Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K.
Descubre SHAPO, un método de optimización de políticas que mejora la exploración segura en aprendizaje por refuerzo, reduciendo riesgos en entornos críticos.
Descubre cómo GRPO evita el colapso del entrenamiento en optimización combinatoria neuronal sin necesidad de línea base, mejorando la estabilidad en problemas de ruteo como TSP y CVRP.
FPQC-SAC reduce el sesgo en RL financiero de baja SNR usando circuitos cuánticos. Logra un 66.89% más de retorno acumulado que SAC estándar. Descubre cómo.
RetroReasoner es un LLM que predice retrosíntesis con razonamiento estratégico. Usa aprendizaje por refuerzo y búsqueda Monte Carlo, superando a otros modelos en rutas sintéticas.
Aprende cómo HIVE selecciona prompts clave en el borde del aprendizaje, reduciendo costos y manteniendo el rendimiento en modelos de razonamiento.
UNIQ: calibración conformal para RL offline con conservadurismo adaptativo. Mejora el rendimiento con bajo costo de memoria. ¡Descúbrelo!
Descubre CoDaPO: un método que asigna pesos adaptativos por dificultad y confianza para mejorar el razonamiento en LLM con aprendizaje por refuerzo. Resultados en 12 benchmarks.
Descubre ConSteer-RL: un nuevo método que mejora el razonamiento de LLMs usando señales de confianza con RL. Resultados: hasta 4% de mejora.
Descubre cómo ConSteer-RL mejora el razonamiento de LLMs usando señales de confianza, logrando mejoras del 2.3% al 4%.
Un dron con gancho aprende a recoger objetos de distintos pesos y adaptarse en tiempo real gracias al meta-aprendizaje contrastivo. Descúbrelo.
DCMDP reformula el RL para LLM corrigiendo la discrepancia train-inference. Mejora el rendimiento en modelos como Qwen-3 incluso con recursos limitados.
Descubre cómo la normalización global estabiliza la destilación on-policy en modelos multimodales, mejorando el razonamiento y evitando explosiones de gradiente.
El nuevo enfoque Thinking-RFT supera atajos en ToM: mejora un 6% frente a SFT mediante razonamiento y refuerzo.
Refina trayectorias offline de forma conservadora con flujos contrafactuales. Mejora políticas a partir de datos históricos sin extrapolar. Resultados en D4RL.
Descubre Claw-R1, el middleware que transforma las interacciones agente-entorno en datos gestionables para mejorar el RL agentivo. Optimiza el entrenamiento de LLMs con datos paso a paso.
Un algoritmo de Thompson Sampling no paramétrico logra optimalidad asintótica en bandidos aversos al riesgo con recompensas subgaussianas.